12 research outputs found

    Timescalenet: a multiresolution approcha for raw audio recognition

    Get PDF
    International audienceIn recent years, the use of Deep Learning techniques in audio signal processing has led the scientific community to develop machine learning strategies that allow to build efficient representations from raw waveforms for machine hearing tasks. In the present paper, we show the benefit of a multi-resolution approach : TimeScaleNet aims at learning an efficient representation of a sound, by learning time dependencies both at the sample level and at the frame level. At the sample level, TimeScaleNet's architecture introduces a new form of recurrent neural layer that acts as a learnable passband biquadratic digital IIR filterbank and self-adapts to the specific recognition task and dataset, with a large receptive field and very few learnable parameters. The obtained frame-level feature map is then processed using a residual network of depthwise separable atrous convolutions. This second scale of analysis allows to encode the time fluctuations at the frame timescale, in different learnt pooled frequency bands. In the present paper, TimeScaleNet is tested using the Speech Commands Dataset. We report a very high mean accuracy of 94.87±0.24% (macro averaged F1-score : 94.9 ± 0.24%) for this particular task

    Source localization and identification with a compact array of digital mems microphones

    Get PDF
    International audienceA compact microphone array was developed for source localization and identification. This planar array consists of an arrangement of 32 digital MEMS microphones, concentrated in an aperture of fewer than 10 centimeters, and connected to a computer by Ethernet (AVB protocol). 3D direction of arrival (DOA) localization is performed using the pressure and the particle velocity estimated at the center of the array. The pressure is estimated by averaging the signals of multiple microphones. We compare high order pressure finite differences to the Phase and Amplitude Gradient Estimation (PAGE) method for particle velocity estimation. This paper also aims at presenting a method for UAV detection using the developed sensor and supervised binary classification

    TimeScaleNet : a Multiresolution Approach for Raw Audio Recognition using Learnable Biquadratic IIR Filters and Residual Networks of Depthwise-Separable One-Dimensional Atrous Convolutions

    Get PDF
    International audienceIn the present paper, we show the benefit of a multi-resolution approach that allows to encode the relevant information contained in unprocessed time domain acoustic signals. TimeScaleNet aims at learning an efficient representation of a sound, by learning time dependencies both at the sample level and at the frame level. The proposed approach allows to improve the interpretability of the learning scheme, by unifying advanced deep learning and signal processing techniques. In particular, TimeScaleNet's architecture introduces a new form of recurrent neural layer, which is directly inspired from digital IIR signal processing. This layer acts as a learnable passband biquadratic digital IIR filterbank. The learnable filterbank allows to build a time-frequency-like feature map that self-adapts to the specific recognition task and dataset, with a large receptive field and very few learnable parameters. The obtained frame-level feature map is then processed using a residual network of depthwise separable atrous convolutions. This second scale of analysis aims at efficiently encoding relationships between the time fluctuations at the frame timescale, in different learnt pooled frequency bands, in the range of [20 ms ; 200 ms]. TimeScaleNet is tested both using the Speech Commands Dataset and the ESC-10 Dataset. We report a very high mean accuracy of 94.87 ± 0.24% (macro averaged F1-score : 94.9 ± 0.24%) for speech recognition, and a rather moderate accuracy of 69.71 ± 1.91% (macro averaged F1-score : 70.14 ± 1.57%) for the environmental sound classification task

    Développement de nouvelles méthodes de classification/localisation de signaux acoustiques appliquées aux véhicules aériens

    No full text
    This thesis deals with the development of a compact microphone array and a dedicated signal processing chain for aerialtarget recognition and direction of arrival (DOA) estimation. The suggested global approach consists in an initial detection ofa potential target, followed by a DOA estimation and tracking process, along with a refined detection, facilitated by adaptivespatial filtering. An original DOA estimation algorithm is proposed. It uses the RANSAC algorithm on real-time time-domainbroadband [100 Hz - 10 kHz] pressure and particle velocity data which are estimated using finite differences and sums ofsignals of microphone pairs with frequency-dependent inter-microphone spacings. The use of higher order finite differences, or variants of the Phase and Amplitude Gradient Estimation (PAGE) method adapted to the designed antenna, can extend its bandwidth at high frequencies. The designed compact microphone array uses 32 digital MEMS microphones, horizontally disposed over an area of 7.5 centimeters. This array geometry is suitable to the implemented algorithms for DOA estimation and spatial filtering. DOA estimation and tracking of a trajectory controlled by a spatialization sphere in the Ambisonic domain have shown an average DOA estimation error of 4 degrees. A database of flying drones acoustic signatures has been set up, with the knowledge of the drone’s position in relation to the microphone array set out by GPS measurements. Adding artificial noise to the data, and selecting acoustic features with evolutionary programming have enabled the detection of an unknown drone in an unknown soundscape within 200 meters with the JRip classifier. In order to facilitate the detection and extend its range, the initial detection stage is preceded by differential beamforming in four main directions (north, south, east, west), and the refined detection stage is preceded by MVDR beamforming informed by the target’s DOA.Ce travail de thèse traite du développement d’une antenne microphonique compacte et d’une chaîne de traitement du signal dédiée, pour la reconnaissance et la localisation angulaire de cibles aériennes. L’approche globale proposée consiste en une détection initiale de cible potentielle, la localisation et le suivi de la cible, et une détection affinée par un filtrage spatial adaptatif informé par la localisation de la cible. Un algorithme original de localisation goniométrique est proposé. Il utilise l’algorithme RANSAC sur des données pression-vitesse large bande [100 Hz - 10 kHz], estimées en temps réel, dans le domaine temporel, par des différences et sommes finies avec des doublets de microphones à espacements inter-microphoniques adaptés à la fréquence. L’extension de la bande passante de l’antenne en hautes fréquences est rendue possible par l’utilisation de différences finies d’ordre élevé, ou de variantes de la méthode PAGE (Phase and Amplitude Gradient Estimation) adaptées à l’antenne développée. L’antenne acoustique compacte ainsi développée utilise 32 microphones MEMS numériques répartis dans le plan horizontal sur une zone de 7.5 centimètres, selon une géométrie d’antenne adaptée aux l’algorithmes de localisation et de filtrage spatial employés. Des essais expérimentaux de localisation et de suivi de trajectoire contrôlée par une sphère de spatialisation dans le domaine ambisonique ont montré une erreur de localisation moyenne de 4 degrés. Une base de données de signatures acoustiques de drones en vol a été créée, avec connaissance de la position du drone par rapport à l’antenne microphonique apportée par des mesures GPS. L’augmentation des données par bruitage artificiel, et la sélection dedescripteurs acoustiques par des algorithmes évolutionnistes, ont permis de détecter un drone inconnu dans un environnement sonore inconnu jusqu’à 200 mètres avec le classifieur JRip. Afin de faciliter la détection et d’en augmenter la portée, l’étape de détection initiale est précédée d’une formation de voies différentielle dans 4 directions principales (nord, sud, est, ouest), et l’étape de détection affinée est précédée d’une formation de voies de Capon informée par la localisation et le suivi de la cible à identifier

    Development of new methods of classification/localization of acoustic signals, application to aerial vehicles

    No full text
    Ce travail de thèse traite du développement d’une antenne microphonique compacte et d’une chaîne de traitement du signal dédiée, pour la reconnaissance et la localisation angulaire de cibles aériennes. L’approche globale proposée consiste en une détection initiale de cible potentielle, la localisation et le suivi de la cible, et une détection affinée par un filtrage spatial adaptatif informé par la localisation de la cible. Un algorithme original de localisation goniométrique est proposé. Il utilise l’algorithme RANSAC sur des données pression-vitesse large bande [100 Hz - 10 kHz], estimées en temps réel, dans le domaine temporel, par des différences et sommes finies avec des doublets de microphones à espacements inter-microphoniques adaptés à la fréquence. L’extension de la bande passante de l’antenne en hautes fréquences est rendue possible par l’utilisation de différences finies d’ordre élevé, ou de variantes de la méthode PAGE (Phase and Amplitude Gradient Estimation) adaptées à l’antenne développée. L’antenne acoustique compacte ainsi développée utilise 32 microphones MEMS numériques répartis dans le plan horizontal sur une zone de 7.5 centimètres, selon une géométrie d’antenne adaptée aux l’algorithmes de localisation et de filtrage spatial employés. Des essais expérimentaux de localisation et de suivi de trajectoire contrôlée par une sphère de spatialisation dans le domaine ambisonique ont montré une erreur de localisation moyenne de 4 degrés. Une base de données de signatures acoustiques de drones en vol a été créée, avec connaissance de la position du drone par rapport à l’antenne microphonique apportée par des mesures GPS. L’augmentation des données par bruitage artificiel, et la sélection dedescripteurs acoustiques par des algorithmes évolutionnistes, ont permis de détecter un drone inconnu dans un environnement sonore inconnu jusqu’à 200 mètres avec le classifieur JRip. Afin de faciliter la détection et d’en augmenter la portée, l’étape de détection initiale est précédée d’une formation de voies différentielle dans 4 directions principales (nord, sud, est, ouest), et l’étape de détection affinée est précédée d’une formation de voies de Capon informée par la localisation et le suivi de la cible à identifier.This thesis deals with the development of a compact microphone array and a dedicated signal processing chain for aerialtarget recognition and direction of arrival (DOA) estimation. The suggested global approach consists in an initial detection ofa potential target, followed by a DOA estimation and tracking process, along with a refined detection, facilitated by adaptivespatial filtering. An original DOA estimation algorithm is proposed. It uses the RANSAC algorithm on real-time time-domainbroadband [100 Hz - 10 kHz] pressure and particle velocity data which are estimated using finite differences and sums ofsignals of microphone pairs with frequency-dependent inter-microphone spacings. The use of higher order finite differences, or variants of the Phase and Amplitude Gradient Estimation (PAGE) method adapted to the designed antenna, can extend its bandwidth at high frequencies. The designed compact microphone array uses 32 digital MEMS microphones, horizontally disposed over an area of 7.5 centimeters. This array geometry is suitable to the implemented algorithms for DOA estimation and spatial filtering. DOA estimation and tracking of a trajectory controlled by a spatialization sphere in the Ambisonic domain have shown an average DOA estimation error of 4 degrees. A database of flying drones acoustic signatures has been set up, with the knowledge of the drone’s position in relation to the microphone array set out by GPS measurements. Adding artificial noise to the data, and selecting acoustic features with evolutionary programming have enabled the detection of an unknown drone in an unknown soundscape within 200 meters with the JRip classifier. In order to facilitate the detection and extend its range, the initial detection stage is preceded by differential beamforming in four main directions (north, south, east, west), and the refined detection stage is preceded by MVDR beamforming informed by the target’s DOA

    Détection, classification et suivi de trajectoire de sources acoustiques par captation pression-vitesse sur capteurs MEMS numériques

    No full text
    International audienceL'utilisation de drones aériens est en plein essor, et la surveillance contre une utilisation inappropriée de ces appareils est un sujet de préoccupation majeure. Dans une stratégie multimodale acoustique et optronique de détection et de suivi de trajectoire par fusion de données, l'attention est ici portée au sous-système acoustique en cours de développement. Le dispositif acoustique est un ensemble d'antennes compactes (diamètre < 10 cm) et autonomes, mises en réseau afin de couvrir une zoné etendue de surveillance. Chaque unité du réseau est constituée de 10 microphones MEMS numériques permettant de mesurer demanì ere optimisée la pression et les composantes du vecteur de vitesse particulaire sur une large gamme de fréquence. Nous présentons ici les contraintes matérielles de cette approche, et les traitements réalisés pour chaque unité du réseau. Pour augmenter la robustesse de l'approche, nouscompì eterons la localisation de la source mobile par uné etape de détection et de classification de signature acoustique. Pour cela, un apprentissage sera effectuéeffectué`effectuéà partir d'une base de données de signatures acoustiques pré-enregistrées. Une fois la source détectée, l'algorithme proposé permet de réaliser un suivi de sa trajectoire, dans plusieurs sous-bandes de fréquences adaptées auxécartsaux´auxécarts inter-microphoniques et aux caractéristiques du signal. Il est fait usage d'une approche par analyse en composantes principales dans le domaine temporel. Des résultats de la localisation en présence d'une source sont présentés, ainsi que des pistes de développement pour une localisation en présence de sources concurrentes, et d'amélioration du suivi de trajectoire par filtrage particulaire et fusion de données

    A distributed network of compact microphone arrays for drone detection and tracking

    No full text
    International audienceThis work focuses on the development of a distributed network of compact microphone arrays for unmanned aerial vehicle (UAV) detection and tracking. Each compact microphone array extends in a 10 cm length aperture and consists in an arrangement of digital MEMS microphones. Several arrays are connected to a computing substation using the I2S, ADAT and MADI protocols using optical fiber. These protocols used together allow to collect the signals from hundreds of microphones spread over a distance of up to 10 km. Sound source localization is performed on each array using measured pressure and particle velocities. The pressure is estimated by averaging the signals of multiple microphones, and the particle velocity is estimated with high order finite differences of microphone signals. Multiple calibration procedures are compared experimentally. Results in sound source localization, noise reduction by spatial filtering and UAV recognition using machine learning are presented
    corecore